148 research outputs found

    Aportes en la Generalización de Habilidades en Aprendizaje por Imitación de Robots

    Get PDF
    En programación por demostración (PpD) de robots, las variaciones de posición de los objetos relacionados con una tarea, requieren nuevas trayectorias que respondan a estas. Una de las técnicas existentes, es el modelo de mezcla de gaussianas parametrizado en la tarea. Este modelo permite relacionar los movimientos del robot con metas y poses de objetos, los cuales son los llamados parámetros de la tarea. Un problema que aparece es que se deben generalizar las trayectorias tanto en el espacio cartesiano, como en el de articulación, más específicamente, se requiere tener la cinemática inversa del robot, con el cual se puedan estimar las trayectorias de articulación, a partir de las trayectorias cartesianas. Un segundo problema que se presenta cuando se manejan objetos deformables, es que se pueden presentar fallos de ejecución, lo que requiere de una o varias acciones de recuperación. Un tercer problema es que, aunque las técnicas de generalización responden ante cambios, en ciertas ocasiones es necesario incluir nuevos comportamientos, los cuales pueden ser diferentes a los ya aprendidos. Este trabajo, se centra en tres aportes relacionados con generalización de trayectorias: i) El aprendizaje y aplicación en PpD de la cinemática directa con una red neuronal llamada máquina de aprendizaje extremo y con la cual se estima la cinemática inversa; ii) La recuperación ante fallos de ejecución en tareas empleando múltiples modelos de mezcla de gaussianas parametrizados en la tarea, y iii) El aprendizaje incremental de trayectorias novedosas en modelos de mezcla de gaussianas parametrizados en la tarea. El funcionamiento de las técnicas propuestas fue probado a través de simulaciones y experimentos con robots reales. La máquina de aprendizaje extremo, aunque requiere un buen número de datos para estimar la cinemática directa, presenta un error bajo cuando se compara con el obtenido por transformaciones homogeneas. Para las propuestas de recuperación a fallos y aprendizaje incremental, se evaluó la tarea de colocar una manga a un maniquí con un manipulador robótico. En la técnica de recuperación de fallos se encontró que la técnica propuesta mejora la realización de la tarea en la mayoría de los casos; y en el aprendizaje incremental, el nuevo modelo parametrizado obtenido después del incremento, presenta mejores respuestas que las logradas empleando el modelo existenteAbstract : In robot programming by demonstration (PbD) object positions changes related to a task, requires new trajectories that respond to these. One of the existent technique is the task parametrized Gaussian mixture model. This technique allows to relate the robot movements with goals and objects poses, which are called task parameters. One problem that emerge is the need of generalization in cartesian and joint space, specifically it is required to have the direct kinematic model of the robot, with which it is possible to estimate the joints trajectories from cartesian ones. A second problem that arises is that when manipulate deformable object, it is possible to have execution fails, it requires the execution of one of more actions to recovery the fail. A third problem is that, although the generalization technique responds to changes, in certain occasions, is necessary to include new behaviors, which can be different from those already learned. This work focuses on three contributions related to trajectory generalization issue: i) The learning and application of the direct kinematics, in PbD using a neural network called extreme learning machine; ii) The recovery of execution fails, in tasks programming with multiple task parametrized gaussian mixture models, and iii) The incremental learning of novelty trajectory, in task parametrized gaussian mixture models. The proposed techniques were tested through simulations and experiments with real robots. Although the extreme learning machine requires a big number of data to estimate the kinematics, it has a low error, when comparing it with the obtained from homogeneus transforms. For the proposed techniques in fail recovery and incremental learning, the task of putting a sleeve to a mannequin with a robotic manipulator was evaluated. In fail recovery, was found that the technique improving the task performance in most cases; and in the incremental learning, the new task parameterized model obtained after the increase, showed better performance than that of the existent modelDoctorad

    Aprendizaje robótico por imitación utilizando imágenes 2D y 3D

    Get PDF
    Resumen Cada vez es más común encontrar robots realizando tareas en áreas compartidas con humanos, donde se espera que sean capaces de aprender de las acciones realizadas por otros y de adaptarse a nuevas situaciones. La aproximación más utilizada es aprendizaje por imitación, donde el robot es capaz de aprender a partir de la observación de la tarea siendo realizada por un operario. Luego de comparar varias de las técnicas de programación por demostración, se seleccionan las primitivas de movimiento dinámico (DMP) con reconstrucción utilizando regresión de procesos gaussianos (GPR). Las DMP codifican cada uno de las trayectorias dadas por los grados de libertad pertinentes a la acción a aprender, en este caso, llevar la mano hacia un objeto ubicado sobre una mesa. Por otro lado, GPR permite generalizar los movimientos del entrenamiento a nuevas trayectorias, cuando cambian tanto la posición inicial de la mano como la ubicación del objeto. Se realizó una comparación de varias técnicas de aprendizaje, teniendo en cuenta el error al objetivo, la correlación cruzada entre las señales de entrada y salida, y el tiempo de codificación y reconstrucción de la trayectoria. Además, la técnica de generalización se compara contra un algoritmo basado en distancia de Mahalanobis y distribución gaussiana, que utiliza los datos de la trayectoria sin codificar para realizar la estimación. La técnica regresión de procesos gaussianos, presentó un mayor desempeño al probarlo con 30 puntos de consulta para el valor inicial de la mano, y 30 puntos para la posición final o posición del objeto. La técnica de regresión de procesos gaussianos junto a primitivas de movimiento dinámico, se presenta como una solución para el aprendizaje por imitación de tareas, así como para la generalización a nuevas trayectorias a partir de la base de datos, al presentar bajos tiempos de codificación y errores pequeños con respecto a los valores objetivo.Abstract: It is becoming increasingly common to find robots performing tasks in shared areas with humans, they are expected to be able to learn from the actions taken by others and adapt to new situations. The most widely used approach is learning by imitation, where the robot is able to learn from watching the task being performed by an operator. After comparing several programming by demonstration techniques, the dynamic movement primitives (DMP) with reconstruction using Gaussian process regression (GPR) was selected. DMP encodes each of the paths given by the relevant degrees of freedom to bring the hand toward an object placed on a table. Furthermore, GPR allows to generalize the training movements to new paths when changing both the initial hand position and the location of the object. A comparison of various learning techniques was performed, considering the error to the target, the cross-correlation between the input and output signals, and time of coding and reconstruction of the trajectory. Besides, the technique is compared against a generalization based on the Mahalanobis distance and Gaussian distribution, which uses data from uncoded trajectories for the estimate. The Gaussian process regression technique, presented a better performance when tested with 30 queue points for the initial value of the hand, and 30 points for the final position of the object. Gaussian process regression along dynamic movement primitives is presented as a solution for learning by imitation of task, as well as generalization to new paths from the database, because of its fast encoding times and small errors regarding the target values.Maestrí

    Evaluación de características musicales para detección de tipos de audio

    Full text link
    El objetivo de este proyecto es el de desarrollar un sistema capaz de identificar y segmentar audio radiofónico en distintas clases acústicas utilizando características musicales. Se ha realizado un estudio sobre el estado del arte en el campo de la segmentación de audio, analizando los algoritmos y técnicas más utilizadas así como las bases de datos con más influencia de la literatura. El algoritmo desarrollado hace uso de modelos estadísticos basados en mezcla de gaussianas (GMM-UBM) a partir de características basadas en la entropía cromática espectral, extraída del audio de la base de datos proporcionada por la evaluación ALBAYZIN 2010 de segmentación de audio. El sistema implementado se divide en siete sub-tareas, identificando en cada una de ellas un tipo de audio distinto. Entre estas sub-tareas se pueden encontrar sistemas como un discriminador de voz/música o un detector de actividad de voz, entre otros. Los resultados obtenidos se han comparado y fusionado con el sistema presentado por el grupo de investigación ATVS en la evaluación de segmentación de audio ALBAYZIN de 2010. Aun teniendo rendimientos inferiores, gracias a la fusión se llega a mejorar el rendimiento global de ambos sistemas. Durante la ejecución de este proyecto fin de carrera se han realizado otras contribuciones en el campo de la Recuperación de Información Musical (MIR), desarrollando dos sistemas en las tareas de similitud de audio musical e identificación de versiones musicales. El sistema de identificación de versiones musicales ha servido de base para la generación del material utilizado en las prácticas de la asignatura Tecnologías de Audio, de 4º curso del Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación de la Universidad Autónoma de Madrid.The target of this project is to develop a system capable of identifying and segmenting audio radio at different acoustic classes using musical features. There has been performed a study in the state of the art in the field of audio segmentation, analysing the algorithms and techniques most used as well as the databases most influential in the literature. The developed algorithm uses statistical models based on Gaussian Mixtures Models (GMM-UBM) using features based on spectral chromatic entropy, extracted from the audio database provided by the ALBAYZIN 2010 evaluation in audio segmentation. The implemented system is divided into seven sub-tasks, identifying a different type of audio per task. Among these sub-tasks we can found a discriminator system between voice and music or a voice activity detector. The results have been compared and merged with the system presented by the research group ATVS in evaluation of audio segmentation ALBAYZIN 2010. Even with lower yields, thanks to the merger, we can improve the overall performance of both systems. During the execution of this final project there has been made other contributions in the field of Music Information Retrieval (MIR), developing two systems in audio music similarity and audio cover song identification. The audio cover song identification system has been the basis for the generation of the material used in the practices of Tecnologías de Audio course, 4th year of the Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación of the Universidad Autónoma de Madrid

    Desarrollo de un sistema de reconocimiento de habla natural para transcribir contenidos de audio en internet

    Full text link
    The aim of this project is to develop a speech recognition system in order to transcribe Internet audiovisual content. First of all, a state of the art research will be carried out to determine the common architecture of speech recognition systems and the use of Hidden Markov Models for this task. After the implementation of a reference system, parameter adjustment and subsequent evaluation, a system optimization will be performed using topic-based language models for the content to recognize. Finally, in order to demonstrate its operation, the optimized system will be applied to a commercial solution enabling the funcionality to be extended. The results of each test are captured in this document, in addition to obtained conclusions.El objetivo de este proyecto es desarrollar un sistema de reconocimiento de habla natural con el fín de transcribir contenidos de audio de Internet. En primer lugar, se realizará un estudio del estado del arte para conocer la arquitectura típica de los sistemas de reconocimiento de voz y el uso de Modelos Ocultos de Markov para esta tarea. Tras la implementación de un sistema de referencia, el ajuste de parámetros y su posterior evaluación, se llevará a cabo una optimización del sistema usando modelos del lenguaje adaptados al tópico de los contenidos a reconocer. Por último, para demostrar su funcionamiento, se aplicará este sistema optimizado a una solución comercial, permitiendo así ampliar su funcionalidad. En esta memoria se recogen los resultados de todas las pruebas y las conclusiones obtenidas

    Autenticación continua de usuario basada en interacción táctil

    Full text link
    Hoy en día, con el auge continuo de la tecnología, cualquier aspecto relacionado con la seguridad adquiere un grado trascendental de importancia. Disponemos de información vital muy sensible en los nuevos dispositivos tecnológicos, ya sean ordenadores, tablets o smartphones. Dicha información debe ser protegida frente a cualquier usuario que no sea legítimo. Para ello, en los últimos años se han utilizado claves, tokens y otros métodos. La parte negativa es que muchos ofrecen un alto porcentaje de vulnerabilidad, además de ser soluciones difícilmente escalables a una vida diaria en la que debemos gestionar un elevado número de servicios y plataformas que requieren protección. Por lo tanto, el reconocimiento biométrico alcanza significativa importancia en este sector, ya que no solo obtiene grandes resultados de cara a proteger la información, sino que, haciendo uso de una parte única correspondiente a nosotros, elimina la necesidad de memorizar una combinación previa o portar un token determinado. Dentro del reconocimiento biométrico, existen diferentes métodos relacionados con cómo se evalúa y/o monitoriza la identidad del usuario. De especial interés para este trabajo es el denominado autenticación continua. Este procedimiento consiste en aplicar una serie de autenticaciones de usuario periódicas de cara a ofrecer mayor robustez, monitorizando de forma constante si el usuario que hace uso del dispositivo analizado es el correcto. En este trabajo realizado se reflejan detalladamente una serie de estudios y análisis sobre la autenticación de usuarios, focalizándose únicamente en dispositivos con pantalla táctil, en este caso smartphones. Para llevar a cabo este objetivo, se han utilizado medidas obtenidas previamente por diversas fuentes en diferentes bases de datos. Además, se ha hecho uso de algoritmos de clasificación de patrones basados en Máquinas de Vector Soporte y Modelos de Mezclas Gaussianas. Dichos algoritmos explotan la información discriminativa y estadística, para posteriormente combinar sus características mediante la fusión, mejorando de manera notoria los resultados obtenidos. Finalmente, se ha aplicado el algoritmo denominado Quickest Change Detection, el cual incrementa la eficacia del desarrollo en términos de latencia y probabilidad de falsa detección de usuarios. Esto se ha logrado teniendo en cuenta los resultados obtenidos anteriormente al instante en el que el usuario registra nuevos datos en la aplicación.Nowadays, with the continuous rise of technology, any aspect related to security acquires a transcendental degree of importance. We have vital information in the new technological devices, whether computers, tablets or smartphones. This information must be protected against any user that is not legitimate. For this, keys, tokens and other methods have been used in recent years. The negative part is that many offer a high percentage of vulnerability, in addition to being hard to scale solutions to a daily life in which we must manage a large number of services and platforms that require protection. Therefore, biometric recognition reaches significant importance in this sector, since it not only obtains great results in order to protect the information, but, making use of a unique part corresponding to us, eliminates the need to memorize a previous combination or carry a certain token. Within the biometric recognition, there are different methods related to how the identity of the user is evaluated and/or monitored. Of special interest for this work is the so-called continuous authentication. This procedure consists of applying a series of periodic user authentications in order to offer greater robustness, constantly monitoring if the user that makes use of the analyzed device is the correct one. In this work, a series of studies and analyzes on user authentication are reflected in detail, focusing only on touchscreen devices, in this case smartphones. To carry out this objective, previously obtained measurements have been used by different sources in different databases. In addition, pattern classification algorithms based on Vector Support Machines and Gaussian Mixture Models have been used. These algorithms exploit the discriminative and statistical information, to later combine their characteristics by means of fusion, improving in a noticeable way the obtained results. Finally, the algorithm called Quickest Change Detection has been applied, which increases the effectiveness of the development in terms of latency and the probability of false detection of users. This has been achieved by taking into account the results previously obtained at the moment in which the user registers new data in the application

    Desarrollo de un entorno virtual para la evaluación experimental en robótica asistencial

    Get PDF
    El desarrollo de sistemas robóticos asistenciales inteligentes es actualmente un campo de investigación activo en la comunidad robótica. Un ejemplo son los manipuladores robóticos asistenciales que pueden ayudar a las personas mayores y discapacitadas en su vida diaria. Estos robots generalmente se destinan a ser utilizados en actividades típicas de la vida diaria dentro de entornos dinámicos complejos, como el hogar del usuario. La naturaleza heterogénea de los usuarios se presenta como otro desafío, por ello se requiere flexibilidad y capacidad de adaptación por parte del robot asistencial. La Interacción Hombre-Robot (HRI) constituye un elemento fundamental para conseguir que estos sistemas robóticos sean útiles para los usuarios finales. Sin embargo, dada la complejidad y la diversidad de los sistemas robóticos, la interacción entre los usuarios y el robot no es fácil de evaluar experimentalmente de forma que pueda suponer una contribución durante el proceso de desarrollo. Por tanto, existe una falta de procedimientos universales para cuantificar el rendimiento debido a que cada entorno requiere sus propias medidas específicas. También es deseable utilizar medidas fiables que determinen el rendimiento durante la evaluación clínica para que proporcionen validez a los dispositivos robóticos asistenciales. En este documento se exponen algunos de los trabajos realizados en este sentido en el proyecto ASIBOT, mediante la descripción de la arquitectura de software desarrollada para dicho propósito, así como los resultados preliminares en la creación de trayectorias representativas y la evaluación del control compartido sobre tareas virtuales de la vida cotidiana. ___________________________________________________________The development of intelligent service robotic systems is currently an active field of research in the robotics community. For example assistive robot manipulators that can aid elderly and disabled people in their daily life. These robots are typically intended to be used in complex unstructured environment, like the user’s home, and on typical Activities of Daily Living (ADLs). The heterogeneous nature of the user group is another challenge, requiring a flexible and adaptable assistive robot. The Human Robot Interaction (HRI) is an important part of making these robotic systems useful for the end-users. However, given the complexity and diversity of the robotic systems, the interaction between the users and the robot is not easy to evaluate experimentally in a way that can help drive the development process. Therefore, there is a lack of ubiquitous ways to measure performance because each domain needs specific performance measures. It is also desirable to use well established performance measures for clinical evaluation to lend validity to an assistive robot device. This document outlines some of the work performed in this direction in the ASIBOT project, describing the software architecture developed for this purpose, as well as preliminary results in creating benchmark trajectories and evaluating shared control on virtual ADLs.Ingeniería Técnica en Electrónic

    Implementación de un sistema de adaptación y reconocimiento de locutor en un dispositivo portable

    Get PDF
    En el presente documento se describe un proyecto que se encuentra situado dentro del marco de las Tecnologías del Habla. En el mismo, se desarrollan varios módulos que se integran en el sistema de Verificación de Locutor independiente de texto diseñado para dispositivos portátiles del tipo PDA. En la primera parte de este proyecto se han centrado todos los esfuerzos en conocer la descripción de este tipo de aplicaciones. Para ello, en el presente documento se detalla cada uno de los bloques de que el Verificador está compuesto. La segunda parte del presente trabajo se centra en la todo el proceso de implementación hasta lograr la versión final del programa. En esta segunda parte se mostrarán tanto resultados como conclusiones obtenidas. En la última parte se presentan los manuales de usuario de cada uno de los módulos implementados en la realización de este proyecto. Dado que se trata de un proyecto muy extenso, se ha decidido dividir la aplicación presentada en diferentes módulos, todos ellos desarrollados en eVC++. En concreto, han sido cuatro los módulos desarrollados: un grabador que funciona en la PDA para crear una buena base de datos; un módulo de parametrización de ficheros de voz para extraer de las grabaciones las características del locutor; un tercer módulo adaptador que logra crear el modelo de usuario adaptado a las características propias de cada locutor y por último, el módulo de Verificación de Locutor que realiza la parte más importante de este proyecto. En el Verificador, un usuario tratará de identificarse eligiendo su identidad a través de una lista de usuarios. Posteriormente, el usuario deberá grabar una locución durante un cierto periodo de tiempo para que el programa pueda determinar si el usuario se trata del locutor que dice ser o no. El objetivo final de este Verificador no termina en sí mismo, sino que se trataría de una aplicación que se podría utilizar para dar acceso a un sistema protegido. De esta manera, se evitaría el acceso a través de contraseñas que pueden ser descifradas por algún impostor. En el caso que nos ocupa en este trabajo, el acceso estaría en las características del propio usuario, por lo que nadie más que él mismo sería capaz de acceder al sistema.Ingeniería de Telecomunicació

    Detección de emociones en voz espontánea

    Full text link

    Caracterización de hablantes mediante extracción de información de cualidad vocal

    Full text link
    Hoy en día el reconocimiento biométrico casi forma parte de nuestra vida cotidiana, y cada vez son más comunes los sistemas que consiguen detectar a personas por diferentes características físicas o de comportamiento del individuo, ya sea para aumentar la seguridad restringiendo el acceso a cierto servicio, o para ajustar las preferencias a las necesidades de cada usuario. Las características en las que se basan también han aumentado considerablemente en las últimas décadas, como pueden ser la huella dactilar, o como en el caso de este trabajo: la voz. Este trabajo de fin de grado va a llevar a cabo una caracterización de los hablantes por medio de parámetros basados en la cualidad vocal, a diferencia de otros métodos más habituales, basados únicamente en información espectral. Para ello, se explicará brevemente el funcionamiento del sistema fonador, del mismo modo que se hará una revisión de los métodos empleados para poder extraer las diferentes características de forma automática. Estos algoritmos se aplican con facilidad mediante el uso de un repositorio de códigos para el procesamiento de señal de voz denominado COVAREP. Seguidamente se repasarán las técnicas elegidas a la hora de realizar pruebas de identificación de hablantes, basadas en un sistema GMM-UBM. Por último antes de comenzar con las pruebas llevadas a cabo, se comentará el método de clustering aglomerativo o hacia arriba. Cuando ya se tengan todas las bases teóricas, se mostrarán todos los resultados obtenidos para poder comprobar la bondad de los parámetros escogidos y su capacidad para caracterizar a los hablantes. En este documento también se recogen pruebas de identificación empleando estos nuevos parámetros, los mismos que se emplearán para crear nuevos grupos de diferentes tipos de locutor. Por último, se buscará combinar los resultados de identificación obtenidos, con otros basados en un sistema más convencional, empleando para ello la fusión de scores.Nowadays, biometric recognition is almost part of our daily lives, and are becoming more common systems which detect people by different physical or behavioral characteristics of the individual, either to increase security by restricting access to certain service, or to adjust the preferences to the needs of each user. The characteristics on which are based, have also increased significantly in recent decades such as fingerprint, or as in case of this work: the voice. This TFG will conduct a characterization of the speakers through parameters that are based on the vocal quality, unlike other more conventional methods, which are only related to spectral information. To do this, we briefly explain the functioning of the vocal system, just as there will be a review of the methods used to extract the different characteristics automatically. These algorithms are implemented easily by using a collaborative repository for speech processing, called COVAREP. Then, the chosen techniques to the speaker identification tests will be explained. Finally, before beginning the test carried out, it will be discussed the method of agglomerative clustering, or from bottom to top. When you already have all the theoretical knowledge, all the results are displayed, to check the goodness of the chosen parameters and their ability to characterize the speakers. In this document identification tests are also collected using these new parameters, the same that will be used to create new groups of different types of speaker. Finally, we seek to combine the identification results obtained with other methods based on a conventional system, employing score fusion

    Detección e identificación de señales sonoras en entornos asistivos.

    Get PDF
    150 p.El trabajo desarrollado en este documento de Tesis Doctoral tiene como principal objetivo el estudio y aplicabilidad de técnicas de reconocimiento de sonidos no relacionados con el habla, tales como timbres de puerta, grifos abiertos, despertadores, etc., que ayuden a mejorar la independencia y calidad de vida de las personas con discapacidad auditiva.En esta investigación se han desarrollado sistemas de reconocimiento capaces de trabajar en tiempo real utilizando micrófonos profesionales con una localización fija. Estos sistemas han sido diseñados tanto para avisar a las personas con problemas auditivos de sonidos de interés como para su uso en sistemas inteligentes que utilicen esta información para el reconocimiento de actividades de la vida diaria de la persona. No obstante, la principal contribución de esta tesis reside en la investigación de este tipo de sistemas en teléfonos móviles donde las prestaciones hardware están más limitadas y las condiciones de entrenamiento de los sonidos y las de validación o testeo varían. Se ha demostrado cómo optimizando los algoritmos de detección y clasificación, estos sistemas pueden ser funcionales en dispositivos móviles en tiempo real. El trabajo en este campo ha derivado en el desarrollo de una aplicación funcional para teléfonos móviles, capaz de funcionar en tiempo real y diseñada en base a pautas de accesibilidad para el apoyo de personas con discapacidad auditiva
    corecore